標簽【reinforce learning】

一、任務與獎賞我們執行某個操作a時，僅能得到一個當前的反饋r（可以假設服從某種分布），這個過程抽象出來就是“強化學習”。強化學習任務通常用馬爾可夫決策過程MDP來描述：強化學習任務的四 ...